草庐IT

html - xpath:仅提取以开头的类

全部标签

ruby-on-rails - 如何使用 Nokogiri 解析 HTML 表格?

我正在尝试解析一个表,但我不知道如何从中保存数据。我想将每一行中的数据保存为:['Rawname1',2,094,0,017,0,098,0,113,0,452]示例表是:html=TablenameColumnname1Columnname2Columnname3Columnname4Columnname5Rawname12,0940,0170,0980,1130,452...Rawname52,0940,0170,0980,1130,452EOT我的爬虫代码是:doc=Nokogiri::HTML(open(html),nil,'UTF-8')tables=doc.css('div

ruby - Jekyll - 生成 JSON 文件和 HTML 文件

我想让Jekyll为每个页面和帖子创建一个HTML文件和一个JSON文件。这是为了提供我的Jekyll博客的JSONAPI——例如可以在/posts/2012/01/01/my-post.html或/posts/2012/01/01/my-post.json访问帖子有谁知道是否有Jekyll插件,或者我将如何开始编写这样的插件来并排生成两组文件? 最佳答案 我也在寻找类似的东西,所以我学习了一些ruby​​并制作了一个脚本来生成Jekyll博客文章的JSON表示。我仍在努力,但大部分都在那里。我将其与Gruntjs、Sass、Bac

ruby - 如何将键/值对添加到散列的开头?

我的代码是:hash={two:2,three:3}defhash_add(hash,new_key,new_value)temp_hash={}temp_hash[new_key.to_sym]=new_valuetemp_hash.merge!(hash)hash=temp_hashputshashendhash_add(hash,'one',1)在该方法中,putshash返回{:one=>1,:two=>2,:three=>3},但是当hash1放在方法中,之后保持不变。就像赋值没有将自身带到函数之外。我想我可以返回更新后的散列并在方法之外设置我想更改的散列:hash=hash

正则表达式匹配以感叹号开头的整行

我正在尝试匹配从开始的整行文本!用正则表达式。我做了这样的事情:/(!\w+\s+\S+)/ig非常接近,但只有2个单词。我想将单词匹配到新行。我还看到句子中间有扰流板的问题。实例:http://www.rubular.com/r/MXmholsDwE 最佳答案 你只需要^!.*参见updatedregexdemo^匹配一行的开头(在Ruby中),!将匹配文字!和。*将匹配换行符以外的零个或多个字符(如果您使用的是Ruby,我假设您使用的是rubular网站)。如果您使用的不是Ruby的正则表达式,例如JS、PHP或.NET,您需要

ruby - 从 cucumber 步骤中提取场景大纲(或读取标签)

如果我的场景是这样开始的:@my-tagScenarioOutline:AdminuserchangesemailGivenIregisterarandomemailaddress...是否可以在单个步骤定义中读取场景大纲文本或@my-tag?例如,在Iregisterarandomemailaddress步骤中,如果它在给定场景或标记值下运行,我想打印调试信息。 最佳答案 您不能直接从步骤定义中访问该信息。如果您需要该信息,则必须在beforeHook期间捕获它。cucumberv3+下面的beforehook将捕获特征名称、场景

ruby - 将 HTML 转换为纯文本(包含 <br>s)

是否可以使用Nokogiri将HTML转换为纯文本?我还想包括标签。例如,给定这个HTML:alamakotaikottoidiota我想要这个输出:alamakotaikottoidiota当我调用Nokogiri::HTML(my_html).text它不包括标签:alamakotaikottoidiota 最佳答案 我没有编写复杂的正则表达式,而是使用了Nokogiri。工作解决方案(K.I.S.S!):defstrip_html(str)document=Nokogiri::HTML.parse(str)document.c

ruby - 使用 Mechanize 读取本地 HTML 文件

我正在构建一个爬虫,我知道如何使用ruby​​mechanize使用以下代码从网上读取页面:require'mechanize'agent=Mechanize.newagent.get"http://google.com"但是我可以使用Mechanize从文件系统中读取HTML文件吗?怎么办? 最佳答案 仅使用file://协议(protocol)对我来说效果很好:html_dir=File.dirname(__FILE__)page=agent.get("file:///#{html_dir}/example-file.html"

ruby - 我如何使用 .html.erb 作为 Sinatra View 的文件扩展名?

如果我有以下Sinatra代码:get'/hi'doerb:helloend如果我有一个名为views/hello.erb的文件,这会很好用。但是,如果我有一个名为views/hello.html.erb的文件,Sinatra找不到该文件并给我一个错误。我如何告诉Sinatra我希望它查找.html.erb作为有效的.erb扩展名? 最佳答案 Sinatra使用Tilt呈现其模板,并将扩展与其相关联。您所要做的就是告诉Tilt它应该使用ERB来呈现该扩展:Tilt.registerTilt::ERBTemplate,'html.er

ruby-on-rails - 解析 URL 以提取域的最佳方法是什么?

这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:RubycodetoextracthostfromURLstring我发现这个模块叫做URI可以解析url。(我是ruby​​的新手。在这种情况下,“模块”是否与“库”同义?)然后您可以提取主机名。uri=URI.parse("http://www.ruby-lang.org/")...puri.host#=>"www.ruby-lang.org"据此,我想您可以删除“www.”并使用正则表达式保留其他子域。有没有人有更直接的替代方法或者这种方法是否正确?

ruby-on-rails - 从 HTML 页面中删除所有 JavaScript

我试过使用Sanitizegem清理包含网站HTML的字符串。它只删除了标记,而不是脚本标记内的JavaScript。我可以使用什么从页面中删除JavaScript? 最佳答案 require'open-uri'#includedwithRuby;onlyneededtoloadHTMLfromaURLrequire'nokogiri'#geminstallnokogirireadmoreathttp://nokogiri.orghtml=open('http://stackoverflow.com')#GettheHTMLsour